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摘 要 


No Free Lunch(NFL) 定理 是 统计 学 习 理 论 的 一 个 重要 结果 (Wolpert, 1992, 1996, 2002)， 依 据 
贝 叶 斯 建 模 可 以 推 得 损失 /效用 函数 的 期 望 与 预测 函数 的 假设 空间 的 选取 有 关 ， 若 认为 真实 
的 预测 函数 空间 是 不 可 知 的 , 则 任意 选择 的 假设 函数 空间 都 不 一 定 得 到 最 优 的 损失 函数 的 期 
望 。 

本 文 对 NFL 定理 的 极限 情况 进行 分 析 , 利用 分 布 的 一 致 收敛 性 ， 即 Glivenko-Cantelli 定 
理 (VL 1933; Cantelli, 1933; Dvoretzky et al., 1956; 韦 来 生 , 2008; 项 诗 松 等 , 2006) 的 一 种 局 部 
形式 得 到 一 一 在 一 定 情况 下 的 确定 性 与 非 确定 性 预测 问题 中 ， 当 样本 量 趋 于 无 穷 大 损失 / 效 
用 函数 的 期 望 与 假设 函数 空间 的 具体 选择 无 关 。 此 项 工作 的 一 个 副 产 物 是 利用 本 文 得 出 的 分 
布 的 一 致 收敛 性 的 局 部 形式 可 以 推 得 分 布 的 总 变 差 (total variation ) 一 致 收敛 性 。 此 前 该 性 
质 一 般 是 认为 不 存在 的 (Devroye et al., 1990)。 


1 经 验 分 布 一 致 收敛 的 三 种 形式 
Glivenko-Cantelli 定理 是 数理 统计 理论 的 基本 定理 之 一 ， 可 以 描述 为 : 


定理 1.1. 定义 在 概率 空间 (X,A,P) 上 的 累积 分 布 函数 (7), 及 其 经 验 累 积分 布 也 (7) = 
> 六 1 1zi<z: 
JPeuplRO ~ F(a)| > 0) =0 0 
为 了 方便 后 续 No Free Lunch 定理 中 的 讨论 ， 这 里 还 给 出 Glivenko-Cantelli 定理 的 一 个 推论 : 
推论 1.2. 定义 在 概率 空间 (X,.4,P),XC 了 上 的 累积 分 布 函数 下 (z), 及 其 经 验 累 积分 布 局,(X) 二 
二 1zws<z， 满 足 VA > 0,e > 0: 
lim P (sm [DAF(x) — DAF(z)| > = =0 (2) 


其 中 ，D 大 f(x) = Tt = 


证 明 . 
SHD [DAFn (7) 一 DAF(z)| 
F(t+A)— F(z) F(t+A)— FY) 


三 入 入 (3) 


< A dn 


今 € = 3|Ale, Hsupy [F(z+A)— F(z+A) < sup; [F(x) — F(z)| <e, 则 


sup |DAFn(z) — DAF(2)| < (4) 
由 Glivenco-Cantelli 定理 知 对 任意 。 >0 有 
J P(eup [Fs(D) — FO) SO) =1— ,lin Pleup Is(o) -FDI>9)=1 加 
注意 到 : 


im Pleup|Fu(®) ~ F(2)| > ©) =0 


im sup|Prtz A)— F(z+A)|>©)=0 
一 lim sup | 人 A)— F(z+A)|> 的 — F(z)|>e=0 . 
no A)— F(z+A)< ee — F(z)| < oO)=1 
故 Ve > 0: 
im Plsup [DAF,(x) — DAF(z)| < 6) 
> P(sup [B(x) — F(z)| < sup | 机 (CC+TA) 一 FFz+AJI<e) (7) 
=1 
故 得 证 。 
类 似 的 可 以 得 到 : 


推论 1.3. 定义 在 概率 空间 (X,-4,P), 和 CR 上 的 累积 分 布 函 数 焉 (Z), 及 其 经 验 累积 分 布 也,(2) 三 
二 D711w<z， 满 足 VA > 0,e > 0: 


,lim P (su IDAF(x) — DAF(7X)| > = 一 0 (8) 
其 中 ，DAf(n) = 全 信 
由 该 定理 可 以 推 得 一 个 关于 总 变 差 (total variation) 距离 的 结论 : 


命题 1.4. 定义 在 概率 空间 (XX, A,P), 外 C 民 ， 且 于 有 界 的 概率 测度 函数 吕 : A [0,1], 及 其 经 
ee | 度 P(X) = 上 二)?_11zseA， 满 足 Vv > 0 有: 
lm P(sup|P”(A)— P(A)| >v)=0 (9) 
多 一 OO A 


证 明 . 首先 以 半径 为 e 的 小 球 履 盖 4 C A。 = UP Be(zi)。 这 是 由 于 4 完全 有 界 ， 所 以 4C 4 


总 可 以 由 入 < co 个 小 球 覆 盖 ， 故 
P"(A)— P(A)— (P"(A.) - P(A))| < 1 dz < Nvol(B®) 
Ae 


—>|P"(A) — P(A)| < |P"(A.) — P(A)| + Nvol(B®) 
N 

—>|P"(A) - P(A)| < 》 |Pn(Be(zi) - P(Be(zi)| + Nvol(B®) 
?三 于 


(10) 


N 
—>|P"(A)— P(A)| < 2e > |DeP"(Be(zi) - DeP(Be(zi)| + Nvol(B®) 
2 一 工 


N 
—> sup|P"(A) — P(A)| < sup2e >_ |DeP"(Be(zi) - DeP(Be(xi)| + Nvol(B9) 
4 A = 


—> sup|P”(A) — P(A)| < 2eNmaz sup |DeP” (B(xi) — DeP(B.(zi)| + Nmazvol(B') 
A Zz 
其 中 Nmaz 为 以 半径 为 e 小 球 覆 盖 任 意 A e A 的 最 大 数 。 由 于 4 C X，X 存 在 有 限 覆 盖 ， 故 任 
意 4 也 存在 有 限 履 盖 。 
由 推论 1.3， 知 Ve > 0,s > 0 有 : 
lim P(sup|P™”(A)— P(A)| > Naz(2es 十 vol(B5))) =0 (11) 
no00 A 


令 w 二 Nmaz(2ee + vol( Be)), 得 证 。 


2 关于 No Free Lunch 定理 的 讨论 
学 习 理 论 中 的 No Free Lunch 定理 的 标准 形式 为 : 


定理 2.1. 设 C 为 学 习 损 失 (或 效用 ); 数据 的 集合 为 Dn = { (x1,91), (7X2,92), (Tm, ym)}， 其 
中 zi 为 输入 ，yi 为 输出 ; 真实 函数 空间 的 表示 输入 输出 关系 的 函数 为 上 ， 其 服从 以 P( 了 ) 为 概 
率 的 分 布 ， 解 空间 的 表示 输入 输出 关系 的 函数 为 屎 ， 其 服从 以 P(h) 为 概率 的 分 布 ， 则 : 
BE(OlDn) = > 2(0|7, hs Dn)jo(hl Dra)p(fl Dn) (12) 
fh 


其 中 E(O|f,h, Dm) 是 关于 C 的 条 件 期 望 。 


可 见 , 该 定理 是 统计 学 习 问 题 的 贝 叶 斯 描述 。 该 定理 常常 可 以 悲观 的 理解 为 : 由 于 p(f|Din) 
的 分 布 未 知 ， 因 此 不 能 保证 由 学 习 算法 所 决定 的 p(h|Dm) 与 p(f1Dm) 加 权 求 和 能 得 到 最 大 的 或 
最 小 的 期 望 值 。 但 是 注意 到 这 是 在 m 有 限 的 情形 。 如 下 将 对 m 一 oo 的 情形 进行 分 析 。 


确定 性 的 输出 ”首先 我 们 讨论 一 种 常见 的 简单 情形 ， 即 3 产 :X 咏 yy = (7)。 对 于 学 习 过 程 
我 们 假设 : 
1. h & XH, 为 假设 空间 ，f & 大 为 真实 空间 ; 
2. BL HPD™ = {hh(z) =y,Vz,y) € Dn,h Ee HY}, Fo™m = {f :f(x)=Yy,V(r,y) € Dm}o 
显然 ， 


HOH DTHDPaeD. 


(13) 


FIFANIFSD., 


更 进一步 地 ， 我 们 可 以 得 到 : 


命题 2.3. 若 设 (X, A, 了) 是 一 个 概率 测度 空间 ， 且 其 累积 概率 分 布 F(z) 是 Lipchitz 的 ， 即 


Vr,x’ € X,|F(r)— F(X)| < Lz-7r |,L<% (14) 
且 Dm 中 元 素 各 不 相同 ， 则 如 下 等 式 以 概率 ] 成 立 : 
imuPUG) 关 广 (olpm)= olanP(no) 关 广 (olDpn) =0 05 


证 明 . 注意 到 P(f(z) = f(x),7X € Dm|Dm) = P(x EE Dm)， 则 
P(f(z) = f(z) Dm) 


= Pf(z)= f° (7),T € DmlDm) +P(f(T) = f (2),T ¢ DmlDm) (10) 
> P(x € Dm) 
有 
P(f(z) #¥ f° (TNDm) 


=1_ P(r) = (a) Dn) 
<1—P(z ee Dn) 


(17) 
= 1 》 Ple = zj), 注 意 到 各 不 相同 
7=1 
Vm f+ 人 A) -F(A\ 
1 A 一 0 人 
考虑 如 下 构造 ， 对 和 作 间 距 为 人 的 等 分 为 zl za2, …， 则 : 
Ed F(zi+ = F(x; 
lim lim E DA 人 上 za P(r € X)= (18) 
A 一 0 2 A 一 0 


注意 到 上 述 求 和 去 掉 了 {zi} 中 最 后 一 个 点 。 

由 推论 1.2 知 ， 当 mm 一 co， 对 任意 Ye > 0,VIz,ZY 十 e) C XX, 阁 了 f(z 十 e) 一 F(z) > 0 则 以 概 
率 1 有 Fm(z 十 日 一 Fm(Z) > 0。 ee CA, Paz' € Dm,0<7—7i<e)=1. 对 
Z1, TY2,.… 取 ,729,.…, 使 得 0 < x 一 ;< 使, 则 由 Lipchitz 条 件 知 ， 以 概率 1 有 : 


IXI/A IX|/A 


一 F(x; / Fl/x 
lim er ee ed Sl 
m00| < 和 A 一 0 近 和 A 一 0 和 人 
?一 ] dl (19) 
ee 
< 一 和 2 一 
< km 入 和 人 0 
又 {zi} C Dm， 故 
PotA)- Fe) SN Pel+A)— F(aol) A po 
2 km 人 a > A 人 


因此 以 概率 1 有 : 

im P(f(z) # f° (an)| Dn) 

IXI/A 
. F(z’ + A)—F(2’) 

= 2 Lm 入 四 (21) 
IXI/A 

= jin Ct A) =) 

A—0 < A—0 和 人 


A=1-PzeX)=0 


将 f 换 为 h， 得 同样 结果 。 故 得 证 。 


该 结论 说 明 当 数 据 量 趋 于 无 限 ， 则 真实 空间 的 函数 依 概率 收敛 于 真实 解 ， 且 任何 可 以 保证 
学 习 误差 为 零 的 学 习 策 略 得 到 的 估计 函数 也 以 概率 收敛 于 真实 解 。 
更 进一步 地 由 命题 2.3 可 以 得 到 推论 : 


推论 2.4. 若 设 (XX, A, PP) 是 一 个 概率 测度 空间 ， 且 其 累积 概率 分 布 P(x) 是 Lipchitz 的 ， 即 


Vr,7z € X,|F(r)— FPF(r)| <Lr—7r|,L<% (22) 
且 Dn, 中 元 素 各 不 相同 ， 则 如 下 等 式 以 概率 ] 成 立 : 
sim PFE) # R(T)NDm) =0, (23) 


证 明 . 由 f 关 扬 售 |f 一 六 |>0, 与 hh 六 合 Ih 一 六 |>0, 且 
|f—hl<|If- FI+lh—f| (24) 
则 由 命题 2.3 知 : 
PUf —h|>0Dm) < PYF — f°| > 0Dm)+PUh— f°| > O01Dm) 
一 im P(lf -hl>0Dm) < lim PYF -f°|> 0lPm)+P( 一 产 :>0lDm)<0 
故 得 证 。 


(25) 


该 结论 说 明 当 数据 量 趋 于 无 限 ， 则 任何 可 以 保证 学 习 误差 为 零 的 学 习 策 略 得 到 的 估计 函数 
都 依 概率 于 真实 空间 的 函数 相等 。 

在 此 基础 上 我 们 可 以 得 到 : 
定理 2.5. 设 C 为 学 习 损 失 (或 效用 ); 数据 的 集合 为 Dy = { (x1,91), (22,Y2),.…(Tm, ym)}， 共 
中 zi 为 输入 ,yi 为 确定 性 输出 ; 真实 函数 空间 的 表示 输入 输出 关系 的 函数 为 f， 其 服从 以 P( 了 ) 
为 概率 的 离散 分 布 , 解 空间 的 表示 输入 输出 关系 的 函数 为 hh， 其 服从 以 P(h) 为 概率 的 离散 分 布 ， 
hh, 了 满足 确定 性 输出 假设 ， 且 NFL2.1 中 E(O|f,h,Dm) < co， 则 以 概率 7 下 式 成 立 : 

lim Ess(ClDm) = lim Eys(C|Dm) (26) 

其 中 Ehj(C|IDm) = E(C|Dm) 是 NFL2.1 的 左边 ，Bjy(C|Dm) 是 NFL 中 令 hh= 了 得 到 的 期 望 。 


证 明 . 由 推论 2.4 知 下 式 以 概率 1 成 立 : 
[Ens(CIDm) — Ess(CIDnm)) 


>,E(CIf,h, Dm)p(hlDm)p(flDm) -2a Cl|f, f, Dm)p(flDm)p(fl Dm) 
fh 


| 入 


2 hl) p(h|Dnm) = p(fIDm) 


(27) 


Sah= f°)p(h= fIDm) + > En(I)p(hDm) 
hzf* 


-En(h= f°)p(f = f°|Dm) — >》 En(h)p(h|Dm) 
fAf* 


SlEn(h= fF)ph= fIDm)— EnhR= f° pf = fIDm)|+A+B 
<én(h= fp(hR= fIDm) -pf = fIDn)|+A+B 


三 


A= 》 En(h)p(h| Dr) ja (np P= 
1 六 


(28) 
B= D Elh)p(hlDm) < (supEn(n)) Ph # f°|Dm) = 


故 ,由 于 对 离散 的 P(f), P(h),limm_yoo P(h = 产 |Dm) = limm_yoo P(f = f*|Dm) = limm yo0p(h = 


非 确定 性 输出 ” 当 输 入 变量 X 与 待 预 测 的 输出 变量 Y 之 间 不 存在 映射 关系 时 ， 统 计 学 习 一 般 
采用 最 小 化 经 验 损 失 (ERM) 的 方法 求 得 预测 函数 。 这 里 我 们 仪 考虑 如 下 情形 : 
定义 2.1. 若 对 ((X, 了 ), A, 也 ) 所 形成 的 概率 测度 空间 , 以 及 定义 在 了 与 预测 函数 ff:X 瞩 fe 
三 上 的 损失 函数 1(y, f, Df,…) (其 中 DF... 为 了 的 各 阶 导 数 )， 存 在 唯一 的 f* 使 得 vf 关 六 : 
cxy(f")= oily pF DF)dPRY) < fl Dh)aPOY) = Lxy(f) 09) 
X,Y .4 
则 称 L(y, f, Df,…) 及 Lxy(f) 为 常规 损失 也 数 (regular loss function), 及 和 常规 损失 泛 函 (regular 


loss functional)。 


显然 , 车 Lxy(f) 是 严格 凸 的 ， 则 其 为 常规 损失 泛 函 ，l(y, f, Df,…) 为 常规 损失 函数 。 但 
是 一 个 常规 损失 泛 函 不 一 定 是 严格 目的。 
例 2.1. 比如 对 7(y, 了 ) = (vy 一 f(z))?， 我们 有 
exy (1)= /faPCeY) G0) 
X,Y 


易 知 对 任意 0 < a < 1， 
SR A = afi(n) + (1 — hala) dP (X,Y) 


| oa(y — (2) + (1 oa)?(y 一 户 (o)2dP(OCY) 
X,Y 


(31) 
ee aly — ie) + (1 oy — fle)) dP(X,Y) 
X,Y 
= aEx,y(l(fi)) + (1 — ao)Ex,y(!(f2)) 
故 其 为 严格 凸 损失 泛 函 ， 有 目 仅 有 一 个 最 优 解 。 对 Exy(1( 丰 )) 求 导 得 : 
和 a yAP(Y|X) = arg mjn ee (y — f(z))2dP(X,Y) G2) 


对 于 常规 损失 泛 函 ， 结 合 ERM 的 一 致 收敛 性 质 ?? 我 们 有 如 下 结论 : 
命题 2.6. 若 对 ((X,Y), A, PP) 所 形成 的 概率 测度 空间 , 以 及 定义 在 了 与 预测 函数 1 :Xf e 
三 上 的 损失 函数 10 f, Df,.….) (其 中 Df... 为 的 各 阶 导 数 ) 有 We>0 
im uD IL%y(f)— Lxr(f)|>e)=0 (33) 
其 中 [入 y( 有 ) = 汪 59_11(yis 了 (zi), Df(zi),…) 为 损失 泛 函 Lx,y(f) 的 经 验 估 计 。 
令 h*=argminyer LYy(f)f* = argminyer Lx,y(f)， 则 
in PP # fIDm)=0 (34) 
其 中 Dm = {(2D 0 (ZT2,Yz),… (TmsZm)} 为 样本 集 。 
证 明 . 令 1* 隆庆 ， 则 
Lxy(f) -LXy(P)= Ly(f)— Lxy(f) 
+Lxy(f’)— Lxy(h) (35) 
+LxY(h)— LYy(h) 


仿 
Lxy(f’)— Lxy(h)= -3e (36) 
注意 到 n 一 co 时 有 
ILx%y(f)— Lxr(f)| < [LXy(f)—- Lxy(f) <e (37) 
[Lxy (1 )— Lxy(W)| < Sp lr) = Lxy(f)| <e (38) 
以 概率 1 成 立 。 故 3e > 0 使 得 
PLXY(f)— Lxy(R) < 3+2e= -0)=1 (39) 
故 
PCXYy) > Ly(f) PLYXYR) > LXy(f)+O=1 (40) 
由 于 对 任意 1 了 关 所， 有 
LXy(h) < LXy(f) (41) 


即 
PCXy) >CXyr))SPOXyr) > Ly(f ))=0 (42) 


故 与 上 式 矛 盾 。 故 当 n 一 co 时 屿 = 产 恒 成 立 ,， 令 和 m ==n 得 证 。 


类 似 定理 2.5, 我 们 可 以 得 到 : 
定理 2.7. 设 C 为 学 习 损 失 ( 或 效用 ); 数据 的 集合 为 Dy = {f(zl 全 ), (XT2;y2)).…(Tm ym)}, 其 中 
XTi 为 输入 ，yi 为 非 确 定性 输出 ; 真实 函数 空间 的 表示 输入 输出 关系 的 函数 为 J/， 其 服从 以 P( 了 ) 
为 概率 的 离散 分 布 , 解 空间 的 表示 输入 输出 关系 的 函数 为 hh， 其 服从 以 P(hh) 为 概率 的 离散 分 布 ， 
hf 由 ERM 求 得 ， 且 NFL2.1 中 E(C|f,h,Dm) < oo， 则 ; 

im Enr(C|Dm) = im Ers(C|Dnm,) (43) 
其 中 aj(CIDm) = ELC|Dm) 是 NFL2.1 的 左边 ，Ejj(C|Dm) 是 NFL 中 令 万 = 得 到 的 期 望 。 
证 明 . 该 证 明 与 定理 2.5 的 证 明基 本 相同 ， 故 省 略 。 不 同 之 处 是 与 推论 2.4 不 同 ， 由 于 命题 2.6 恒 成 
立 ， 故 该 结论 也 恒 成 立 。 


3 结论 


本 文 分 析 了 NEFL 定理 的 极限 情况 ， 得 到 了 当 样 本 量 趋 于 无 穷 大 时 NFL 与 假设 空间 的 具体 
选择 无 关 的 结论 。 此 前 由 于 NFL 定理 ， 人 们 认为 ERM 的 学 习 系 统 是 不 能 得 到 真正 的 最 优 解 的 。 
本 文 在 一 定 程度 上 修正 了 这 个 认识 。 此 项 工作 中 的 分 析 依 赖 于 分 布 的 一 致 收敛 性 ( 即 Glivenko- 
Cantelli 定理 ) 的 一 种 局 部 形式 。 在 此 基础 上 本 文 得 到 分 布 的 总 变 差 一 致 收敛 性 。 此 前 的 结论 是 
经 验 分 布 的 总 变 差 的 一 致 收敛 性 是 不 存在 的 。 这 个 绪论 的 证 明 有 对 大 样本 统计 、 数 据 科学 以 及 
人 工 智能 等 领域 等 依赖 于 海量 数据 的 科学 及 工程 领域 有 一 定 的 建设 性 。 
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